FR2784218 



Publication Title: 

Method for quantizing speech coder parameters 



Abstract: 

Abstract of FR278421 8 

The invention concerns a method which consists in: gathering (17) the 
parameters on N consecutive frames to form a super-frame; carrying out a vector 
quantization (18) of the voicing transition frequencies during each super-frame, 
by transmitting without degradation only the most frequent configurations and by 
replacing the least frequent configurations by the closest configuration in terms of 
absolute error among the most frequent; encoding the pitch (19), by scalar 
quantization of only one pitch value for each super-frame; encoding the energy 
(20) by selecting only a reduced number of values by gathering said values into 
sub-packets quantized by vector quantization (21); encoding by vector 
quantization (21) the spectral envelope parameters by selecting only a 
predetermined number of filters, the non-transmitted parameters being 
reconstructed by interpolation or extrapolation from the transmitted filter 
parameters. The invention is applicable to vocoders. 
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@) PROCEDE DE CODAGE DE LA PAROLE A BAS DEBIT. 

(§) Le proc&te consiste & regrouper (17) les param&res 
sur N trames consScutives pour former une super-trame, k 
effectuer une quantification vectorielle (18) des frequences 
de transition du voisement au cours de chaque super-trame, 
en ne transmettant sans degradation que les configurations 
les plus frGquentes et en remplagant les configurations les 
moins frequentes par la configuration la plus proche en ter- 
me d'erreur absolue parmi les plus fr6quentes t k coder le 
pitch (19) en ne quantifiant scalairement qu'une seule va- 
leur du pitch pour chaque super-trame, a coder I'energie 
(20) en ne sGlectionnant qu'un nombre r6duit de valeurs en 
regroupant ces valeurs en sous paquets quantifies par 
quantification vectorielle, & coder par quantification vecto- 
rielle (21) les parametres d'enveloppe spectrale en ne s§- 
iectionnant qu'un nombre determine de filtres, les 
parametres non transmis etant reconstruits par interpolation 
ou extrapolation k partir des parametres des filtres transmis. 
Applications: vocodeurs. 
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La prSsente invention concerne un procSde de codage de la 
parole. Elle s'applique notamment b la realisation de vocodeurs h tres bas 
debit, de i'ordre de 1 200 bits par seconde et mis en oeuvre par exemple 
5 dans les communications par satellite, la telephonie sur internet, les 
r^pondeurs statiques, les pageurs vocaux etc... 

L'objectif de ces vocodeurs est de permettre de reconstruire un 
signal qui soit le plus proche possible au sens de la perception par I'oreille 
humaine du signal de parole d'origine, en utilisant un debit binaire le plus 
10 faible possible. 

Pour atteindre cet objectif les vocodeurs utilisent un modele 
totalement parametrS du signal de parole. Les parametres utilises 
concernent le voisement qui d^crit le caract&re p6riodique des sons 
voises ou le caractfcre ateatoire de sons non vois6s, la frequence 
15 fondamentale des sons voises encore connue sous le vocable anglo-saxon 
"PITCH", Involution temporelle de I'dnergie ainsi que I'enveloppe 
spectrale du signal pour exciter et parametrer les filtres de synthase. 
Generalement le filtrage est r£a\\s6 par une technique de filtrage 
numerique a prediction lin^aire. 
20 Ces difterents parametres sont estimSs p^riodiquement sur le 

signal de parole, de une b plusieurs fois par trame de 10 a 30 ms, selon 
les parametres et les codeurs. lis sont elabores au niveau d'un dispositif 
d'analyse et sont generalement transmis a distance en direction d'un 
dispositif de synthase. 
25 Le domaine du codage de la parole a bas debit a longtemps ete 

domine par un codeur a 2 400 bits/s connu sous la designation LPC 10. 
Une description de ce codeur, ainsi que d'une variante a plus bas debit 
peut etre trouvee dans les articles Intitules : 

"Parameters and coding characteristics that must be common 
30 to assure interoperability of 2 400 bps linear predictive encoded speech", 
NATO Standard STANAG - 4198 - Ed 1, 13 February 1984 et dans 
('article de MM. B.Mouy, D de la Npue et G. Goudezeune, intitule "NATO 
STANAG 4479 : A standard for an 800 bps vocoder and channel coding 
in HF-ECCM system", public dans IEEE International Conference on 
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Acoustics, Speech, and Signal Processing, Detroit, May 1955, pp. 480- 
483. •- Trr . 

Bien que parfaitement intelligible, la parole reproduite par ce 
vocodeur, est d'assez mauvaise qualite, de sorte que son usage est limits 
5 a des applications bien sp^cifiques, principalement professionnelles et 
militaires. Ces demises arinSes TTdomaine du codage de la parole a bas 
debit a connu un grand nombre d'innovations, grace h Introduction de 
nouveaux modeles connus respectivement sous les abrogations MBE, 
PWI et MELP. — 
1 <> Une description du module MBE peut etre trouv^e dans Particle 

de MM. D.W. Griffin and J.S. Lim, intitule "Multiband Excitation 
Vocoders", publie dans la revue IEEE Trans, on Acoustics, Speech, and 
Signal Processing, vol. 36, n° 8, pp. 1223-1235, 1988. 

Celle du modele PWI peut etre trouvSe dans P article de MM. 
15 W.B. Kleijn and J. Haogen, intitute "Waveform Interpolation for Coding 
and Synthesis" dans la revue Speech Coding and Synthesis 6dit6 par 
W.B. Kleijn et KK. Paliwal, Elsevier 1995. 

Enfin, une description du modele MELP peut Stre trouvee dans 
Particle de MM. LM. Supplee, R.P. Cohn, J.S. Collura, and A.V. McCree, 
20 intitule "MELP : The new federal standard at 2 400 bits/s, publie dans la 
revue IEEE International Conference on Acoustics, Speech, and Signal 
Processing, Munich, April 1997, pp. 1591 - 1594. 

La qualite de la parole restituee par ces modeles a 2400 bits/s 
est devenue acceptable pour un "grand nombre duplications civiles et 
25 commerciales. Mais pour les d<§bit§jnferieurs a 2 400 bits/s (typiquement 
1 200 bits/s ou moins) la parole restituee prSsente une qualite 
insuffisante et pour pallier cet inconvenient d'autres techniques ont ete 
mises en oeuvre. Une premterF technique est celle du vocodeur 
segmental, dont deux variantes spnt celles decrites par MM. B. Mouy, P. 
30 de la Noue and G. Goudezeune dejS citee, et de celle decrite par M. Y. 
Shoham intitulee "Very low complexity interpolative speech coding at 1 .2 
to 2.4 K bps", publie dans IEEE International Conference on Acoustics, 
Speech, and Signal Processing, Munich, April 1997, pp 1599 - 1602. 
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Mais d ce jour, aucuri^vocodeur segmental n'a 6x6 ]ug6 de 
qualite suffisante pour des applications civiles et commerciales. 

Une deuxteme technique est celle mise en oeuvre dans les 
vocodeurs phonStiques, qui combinent des principes de reconnaissance et 
5 de synthese. L'activit£ dans ce dpmaine se situe plutot au stade de la 
recherche fondamentale, les debits vis£s sont g£n6ralement tr£s 
inferieurs a 1 200 bits/s (typiquement 50 a 200 bits/s) mais la qualite 
obtenue est plutot mauvaise et il ri 7 y a souvent pas de reconnaissance du 
locuteur. Une description de ces "types de vocodeurs peut etre trouv6e 
10 dans I'article de MM. J. Cernocky, G. Baudoin, G. Chollet, ayant pour 
titre : "Segmental vododer - Going beyond the phonetic approch" publie 
dans IEE International Conference on Acoustics, Speech, and Signal 
Processing, Seattle, May 12 - 15T998, pp. 605 - 698. 

Le but-de ^invention est de pallier les inconv^nients cites. 

15 A cet effet, I'invention a~pour objet un proc^de de codage et de 

d^codage de la parole pour les communications vocales utilisant un 
vocodeur a tr£s bas dSbit comportant une partie analyse pour le codage 
et la transmission des parametres du signal de parole et une partie 
synthese pour la reception et le ddcodage des parametres transmis et la 
20 reconstruction du signal de parole" par utilisation de filtres de synthase d 
prediction Iin6aire du type consistant a analyser les parametres, decrivant 
le pitch, la frequence de transition de voisement, Penergie, et Tenveloppe 
spectrale du signal de parole, en tfScoupant le signal de parole en trames 
successives de longueur ddtermin^e caracterise en ce qu'il consiste b 
25 regrouper les parametres sur N trames cons6cutives pour former une 
super-trame, k effectuer une quanTTfication vectorielle des frequences de 
transition du voisement au coiirs de chaque super-trame, en ne 
transmettant sans degradation que les configurations les plus frequentes 
et en remplagant les configurations les moins frequentes par la 
30 configuration la plus proche en terme d f erreur absolue parmi les plus 
frequentes, a coder Je pitch en ne quantifiant scalairement qu'une seule 
valeur pour chaque super-trame, d coder Tenergie en ne s£lectionnant 
qu'un nombre r^duit de valeurs~~en regroupant ces valeurs en sous 
paquets quantifies par quantification vectorielle, les valeurs d'energie non 
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transmises etant rdcupdrges dans* la partie synthese par interpolation ou 
extrapolation a partir des valeurs transmises, a coder par quantification 
vectorielle les param6tres d'enveloppe spectrale pour I'encodage des 
filtres de synthase h prediction lingaire en ne sSlectionnant qu^un nombre 
5 determine de filtres, les parametres non transmis etant reconstruits par 
interpolation ou extrapolation d partir des parametres des filtres transmis. 

D'autres caracteristiques et avantages de I'invention 
apparaTtront a I'aide de la description qui suit faite en regard des dossiers 
annexes qui reprSsentent : 
10 La figure 1 un module ^'excitation mixte d'un vocodeur type 

HSX utilise pour la mise en oeuvre de I'invention. 

La figure 2 un schema fonctionnel de la partie "analyse" d f un 
vocodeur de type HSX utilise pour la mise en oeuvre de Hnvention. 

La figure 3 un schema fonctionnel de la partie synthese d'un 
15 vocodeur de type HSX utilise pour la mise en oeuvre de I'invention. 

La figure 4 les etapes principales du procede selon Invention 
mises sous la forme d'un organigramme. 

La figure 5 un tableau montrant la ' repartition des 
configurations des frequences de transition de voisement pour trois 
20 trames consecutives. 

La figure 6 une table de quantification vectorielle des 
frequences de transition de voisement utilisable pour la mise en oeuvre de 
T invention. — 

La figure 7 une liste sous forme de tableau de schemas de 
25 selection et d'interpolation mise en oeuvre dans I'invention pour le 
codage de I'energie du signal de parole. 

La figure 8 une liste sous forme d'un tableau de sch£mas de 
selection et d 1 interpolation/extrapolation pour I'encodage des filtres LPC a 
prediction lineaire. 

30 La figure 9 un tableau d'allocation des bits necessaires au 

codage d'un vocodeur de type HS3Ta 1 200 bits/s selon Tinvention. 

Le procede selon I'inverition met en oeuvre un vocodeur de 
type connu sous I'abreviation anglo-saxonne HSX de "Harmonic 
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Stochastic Excitation", comme base pour la realisation d'un vocodeur de 
bonne quality a 1 200 bits/s. 

Une description de ce type de vocodeur peut etre trouv^e dans 
Tarticle de MM. C. Laflamme, R. Salami, R. Matmti et J. P. Adoul, ayant 
5 pour titre "Harmonic Stochastic Excitation (HSX) speech coding below 4 
k.bits/s" et publie dans IEEE International Conference on Acoustics, and 
Signal Processing, Atlanta, May 1 996, pp.204- 207. 

Le proc6de selon I'invention porte sur Tencodage des 
parametres qui permet de reproduire au mieux avec un minimum de debit 
10 toute la complexite du signal de parole. 

Comme schematise a Ta figure 1 un vocodeur HSX est un 
vocodeur a prediction lineaire qui utilise dans sa partie synthese un 
modele d'excitation mixte simple, dans lequel un train d'impulsion 
periodique excite les frequences basses et un niveau de bruit excite les 
15 frequences hautes d'un filtre LPC de synthase. La figure 1 d<§crit le 
principe de generation de I 'excitation mixte qui comporte deux voies de 
filtrage. La premiere voie 1i est excitee par un train d'impulsion 
periodique effectue un filtrage passe bas et la deuxifcme voie 1 2 excitee 
par un signal de bruit stochastique effectue un filtrage passe haut. La 
20 frequence de coupure ou de transition fc des filtres des deux voies est la 
meme et a une position variable dans le temps. Les filtres des deux voies 
sont complementaires. Un sommateur 2 additionne les signaux fournis 
par les deux voies. Un amplificateur 3 de gain g ajuste le gain de la 
premiere voie de filtrage pour que le signal d'excitation obtenu en sortie 
25 du sommateur 2 soit d spectre plat. 

Un diagramme fonctionnel de la partie analyse du vocodeur est 
represente a la figure 2. Pour effestuer cette analyse le signal de parole 
est d'abord filtre par un filtre passe haut 4 pour etre ensuite segmente en 
trames de 22,5 ms, comportant 180 echantillons preieves a la frequence 
30 8 KHz. Deux analyses par prediction lineaire sont effectuees en 5 sur 
chacune des trames. Aux etapes 6 et 7 le signal semi blanchi obtenu est 
filtre en quatre sous bandes. Un~suiveur de pitch 8 robuste exploite la 
premiere sous bande. La frequence de transition f c entre la bande de 
frequence basse des sons voises et Ta bande de frequence haute des sons 



2784218 



6 

non voises est cteterminee par le taux de voisement mesur6 en 9 dans les 
quatre sous bandes. Enfin, Tenergie est mesuree et codee a I'etape 10 de 
manure pitch-sychrone, 4 fois par trame. 

Comme les performances_du suiveur de pitch et de I'analyseur 
5 de voisement 9 peuvent etre grandement ameliorees lorsque leur decision 
est retarde d'une trame, les pararrretres resultant, coefficients des filtres 
de synthese, pitch, voisement, frequence de transition et energie sont 
codes avec une trame de retard. 

Dans la partie synthase du vocodeur HSX qui est repnSsente a 
10 la figure 3, le signal d'excitation du filtre de synthese est form6 de la 
maniere deja representee h la figure 1 par la somme d'un signal 
harmonique et d'un signal aleatoire dont les enveloppes spectrales sont 
complementaires. La composante harmonique est obtenue en passant un 
train d'impulsions a la periode pitch dans un filtre passe bande pr6calcule 
15 11. La composante aleatoire est obtenue a partir d'un gen^rateur 12 
combinant une transform^ de Fourier inverse et un recouvrement 
tempore!. Le filtre LPC de synthase 14 est interpole 4 fois par trame. Le 
filtre perceptuel 15 couple en sortie de filtre 14 permet d'obtenir une 
meilleure restitution des caractSristiques nasales du signal de parole 
20 originel. Enfin le dispositif de controle automatique de gain permet 
d'assurer que l'6nergie pitch-synchrone du signal de sortie est egale a 
celle qui a ete transmise. 

Avec un debit aussi bas que 1 200 bits/s, il n'est pas possible 
d f encoder de facon precise toutes les 22,5 ms les 4 parametres pitch, 
25 frequence de transition de voisement, Snergie et coefficients des deux 
filtres LPC a 10 coefficients par trame. 

Pour exploiter au mieux les caracteristiques temporelles de 
revolution des parametres qui cSmportent des periodes de stabilite 
entrecoup^es de variations rapides, le procede selon ['invention se 
30 deroule en cinq etapes principales r^ferenc^es de 17 a 21 sur la figure 4. 
L'etape 17 regroupe les trames vocodeurs par N trames pour former une 
super trame, A titre indicatif une valeur de N egale a 3 peut etre choisie 
car elle realise un bon compromisrentre la reduction possible du debit 
binaire et le retard introduit par le precede de quantification. D'autre part, 
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elle est compatible avec les techniques d'entrelacement et de codage 
correcteur d'erreurs actuelles. 

La frequence de transition de voisement est codee a I'etape 18 
par quantification vectorielle en utilisant uniquement quatre valeurs de 
5 frequence, 0,750,2000 et 3625 HZ par exemple. Dans ces conditions 6 
bits d raison de 2 bits par trame sont suffisants pour coder chacune des 
frequences et transmettre exactement la configuration de voisement des 
trois trames d'une super trame. Toutefois comme certaines 
configurations de voisement ne se reproduisent que tr£s rarement, on 
10 peut consider qu'elles ne sont pas forcement caractSristiques de 
1'evolution du signal de parole normal, car elles ne semblent pas participer 
a rintelligibilite, ni a la qualite de la parole restitute. C'est le cas par 
exemple lorsque une trame est totalement voisSe de 0 Hz jusqu'S 
.. 3 625 Hz et qu'elle est_,comprise_ entre_ deux _ trames totalement non 
15 vois£es. .;— ; 

Le tableau de la figure 5 retrace une repartition de 
configuration de voisement sur trois trames successives, calculees sur 
une base de donn£es de 123 158 trames de parole. Dans ce tableau les 
32 configurations les moins fr^quentes comptent pour seulement 4% de 
20 toutes les trames, partiellement ou totalement voisees. La degradation 
obtenue en remplagant chacune de ces configurations par la plus proche, 
en terme d'erreur absolue, des 32 configurations les plus representees 
est imperceptible. Ceci montre qu'il est possible d'economtser un bit en 
quantifiant vectoriellement la frequence de transition de voisement sur 
25 une super trame. Une quantification vectorielle des configurations de 
voisement est montree dans le tableau reference 22 sur la figure 6. Le 
tableau 22 est organist de sorte que Terreur quadratique moyenne 
produite par une erreur sur un bit d T adressage soit minimale. 

Le codage du pitch s'exScute a Tetape 19. II met en oeuvre un 
30 quantificateur scalaire sur 6 bits; avec une plage d'echantillons de 16 h 
148, et un pas de quantification uniforme sur une echelle logarithmique. 
Une seule valeur est transmise pdtir trois trames cons^cutives. Le calcul 
de la valeur a quantifier h partir des trois valeurs de pitch et la procedure 
permettant de r6cup6rer les trois valeurs de pitch a partir de la valeur 



2784218 



8 

quantifier different selon la valeur des frequences de transition de 
voisement de I'analyse. Le processus est le suivant: 

1. Lorsque aucune trame n'est voisee, les 6 bits sont 
positionnes a zero, le pitch decode~est fixe a une valeur arbitraire soit, par 

5 exemple, a 45 echantillons pour chacune des trames de la super trame. 

2. Lorsque la derniere trame de la super-trame precedente et 
les trois trames de la super trame courante sont voisees, c'est a dire, 
lorsque la frequence de transition de voisement est superieure strictement 
a zero, la valeur quantifiee est la valeur du pitch de la derniere trame de la 

10 super trame courante qui est alors consideree comme une valeur cible. 
Au decodeur la valeur decodee du pitch pour la troisieme trame de la 
super-trame courante est la valeur cible quantifiee, et les valeurs du pitch 
decodes pour les deux premieres trames de la super-trame courante sont 
recuperees par interpolation lineaire entre la valeur transmise pour la 

15 super-trame precedente et la valeur cible quantifiee. 

3. Pour toutes les autres configurations de voisement, c'est la 
valeur ponderee du pitch sur les trois trames de la super-trame courante 
qui est quantifiee. Le facteur de ponderation est proportionnel a la 
frequence de transition de voisement pour la trame consideree suivant la 

20 relation : 

£ Pitch(i)* voisement(i) 

Valeur Moyenne Ponde>£e = 1=l ~ 3 _ 

2^ voisement(i) 

i=l— 3 

Au decodeur la valeur du pitch decodee pour les trois trames 
de la super-trame courante est egale a la valeur moyenne ponderee 
quantifiee. 

25 De P |us dans les cas 2 et 3, un leger tremolo est applique 

systematiquement aux valeurs diTpitch utilisees en synthese pour les 
trames 1, 2 et 3 pour ameliorer le nature! de la parole restituee en evitant 
la generation de signaux trop fortement periodiques, suivant par exemple 
les relations : 

30 Pitch utilise {1 ) = 0,995.* Pitch Decode (1 ) 

Pitch utilise (2) = 1 ,005 * Pitch Decode (2) 
Pitch utilise (3) = 1 ,0007* Pitch Decode (3) 
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L'interet de proc£der d une quantification scalaire des valeurs 
de pitch est qu'il limite le probteme de propagation des erreurs sur le train 
binaire. De plus les schemas de codage 2 et 3 sont suffisamment proches 
Tun de I'autre pour etre insensibles aux mauvais decodages de la 
5 frequence de voisement. 

L'encodage de I'energie'est effectue h I'etape 20. II a lieu de la 
facon representee dans le tableau r£f<§renc£ 23 sur la figure 7 en utilisant 
une methode de quantification vectorielle du type de celle dScrite dans 
Tarticle de RM Gray, ayant pour tUre "Vector Quantization", publie dans 
10 la revue IEEE ASP Magazine, vol, 1, pp 4-29, avril 1984. Douze valeurs 
d'energie num6rot6es de 0 h 1 1 sont calculees a chaque super-trame par 
la partie analyse et seulement six valeurs d'energie parmi les douze sont 
transmises. Ceci conduit h construire deux vecteurs de trois valeurs par la 
partie analyse. Chaque vecteur est quantify sur six bits. Deux bits sont 
15 utilises pour transmettre le numSro de schema de selection utilise. Lors 
du decodage dans la partie synthase, les valeurs de Tenergie qui n'ont 
pas €ti quantifies sont r6cup6r£es par interpolation, 

Seuls quatre sch6rnas de selection sont autorises comme le 
montre le tableau de la figure T. Ces schemas sont optimises afin 
20 d'encoder au mieux, soit les vecteurs de 12 Energies stables, soit ceux 
pour lesquels I'gnergie varie rapidement au cours des trames 1, 2, et 3. 
Dans la partie analyse le vecteur d'energie est encode selon chacun des 
quatre schemas, et le schema effectivement transmis est celui qui 
minimise Terreur quadratique totale. 
25 Dans ce processus les "bits donnant le num£ro du schema 

transmis ne sont pas considers cpmme sensibles, puisque qu'une erreur 
sur leur valeur ne fait qu'alterer legfcrement revolution temporelle de la 
valeur de I'energie. De plus la table de quantification vectorielle des 
energies est organis^e pour que I'erreur quadratique moyenne produite 
30 par une erreur sur un bit d'adressage soit minimale. 

Le codage des coefficients modelisant Tenveloppe du signal de 
parole a lieu par quantification vectorielle a I'etape 21. Ce codage permet 
de determiner les coefficients des filtres numeriques utilises dans la partie 
synthese. Six filtres LPC a 10 coefficients numerotes de 0 a 5 sont 
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calcules a chaque super-trame par la partie analyse et seulement 3 filtres 
parmi les 6 sont transmis. Les six vecteurs sont transform^ en six 
vecteurs de 10 paires de raies spectrales LSF suivant par exemple le 
processus decrit dans I'article de M F. ITAKURA, intitule "Line Spectrum 
5 Representation of Linear Predictive Coefficients" et publte dans le Journal 
Acoustique Sociaty America, vol.57, P.S35, 1975. Les paires de raies 
spectrales sont encodee par une technique similaire a celle mise en 
oeuvre pour le codage de I'energie. Le processus consiste h selectionner 
trois filtres LPC, et & quantifier chacun des vecteurs sur 18 bits en 
10 utilisant par exemple un quantificateur vectoriel prddictif en boucle 
ouverte, avec un coefficient de prediction <§gal a 0,6, de type SPLIT -VQ 
portant sur deux sous-paquets de 5 LSF consecutives auxquels il est 
alloue a chacun 9 bits. Deux bits sont utilises pour transmettre le num6ro 
du schema de selection utilise. Au niveau du decodeur lorsqu'un filtre 
15 LPC n'est pas quantifie, sa valeur est estimee b partir de celle des filtres 
LPC quantifies par interpolation lin^aire par exemple, ou par extrapolation 
par duplication par exemple du filtre LPC precedent. A titre d f exemple un 
processus de quantification vectdnelle par paquets pourra etre constitu6 
de la fagon decrite dans I'article de MM K.K. PALIWAL, BS. ATAL, ayant 
20 pour titre "Efficient Vector Quantization of LPC Parameters at 24 
bits/frame" et publie dans IEEE transaction on Speech and Audio 
Processing, Vol.1, Janvier 1993. 

Comme indiqu6 dans le tableau reference 24 sur la figure 8, 
seuls quatre schemas de selection sont autorises. Ces schemas 
25 permettent de coder au mieux, soit les zones pour lesquelles I'enveloppe 
spectrale est stable, soit les zones pour lesquelles Tenveloppe spectrale 
varie rapidement au cours des trames 1, 2, ou 3. L'ensemble des filtres 
LPC est alors codd selon chacurf des quatre schemas, et le schema 
effectivement transmis est celui qufmtnimise Terreur quadratique totale. 
30 De maniere similaire au codage de I'energie, les bits donnant le 

numero du schema ne sont pas a considerer comme sensibles, puisque 
une erreur sur leur valeur ne.Jait qu'alterer legerement revolution 
temporelle des filtres LPC. De plus les tables de quantification vectorielle 
des LSF sont organisees dans la partie synthese de sorte que Terreur 
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quadratique moyenne produite par une erreur sur un bit d'adressage soit 
minimum. 

L'allocation des bits pour la transmission des parametres LSF, 
de I'energie, du pitch et du voisement qui resulte de la m^thode de 
5 codage mise en oeuvre par Tinvention est representee dans le tableau de 
la figure 9 dans le cadre d'un vocodeur a 1200 bits/s dans lequel les 
parametres sont cod£s toutes les 67,5 ms; 81 bits etant disponibles a 
chaque super trame pour encoder Jes parametres du signal. Ces 81 bits 
se decomposed en 54 bits LSF, 2~bits pour la decimation du schema des 
10 LSF, 2 fois 6 bits pour rSnergie/lT bits pour le pitch et 5 bits pour le 
voisement. 
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REVENDICATIONS 

1 . Procede de codage et de decodage de la parole pour les 
5 communications vocales utilisant un vocodeur & tres bas debit 
comportant une partie analyse (4,.... 10) pour le codage et la transmission 

des parametres du signal de parole et une partie synthase (1 1 , 16) pour 

la reception et le decodage des parametres transmis et la reconstruction 
du signal de parole par utilisation de filtres de synthese h prediction 
10 Iin6aire du type consistant h analyser les parametres, decrivant le pitch 
(8), la frequence de transition de voisement (9), I'energie (10), et 
I'enveloppe spectrale (5) du signaTde parole, en decoupant le signal de 
parole en trames successives de longueur determinSe caracteris6 en ce 
qu'il consiste £ regrouper (17) les parametres sur N trames consecutives 
15 pour former une super-trame, & effectuer une quantification vectorielle 
(18) des frequences de transition du voisement au cours de chaque 
super-trame, en ne transmettant sans degradation que les configurations 
les plus frequentes et en renrfplacant les configurations les moins 
frequentes par la configuration la plus proche en terme d'erreur absolue 
20 parmi les plus frequentes, h coder le pitch (19) en ne quantifiant 
scalairement qu'une seule valeur du pitch pour chaque super-trame, k 
coder I'energie (20) en ne seiectTohnant qu'un nombre reduit de valeurs 
en regroupant ces valeurs en sous paquets quantifies par quantification 
vectorielle, les valeurs d'energie non transmises etant r6cup6r6es dans la 
25 partie synthese par interpolation du extrapolation h partir des valeurs 
transmises, a coder par quantification vectorielle (21) les parametres 
d'enveloppe spectrale pour Tencodage des filtres de synthese d prediction 
lineaire en ne selectionnant qu'un nombre determine de filtres, les 
parametres non transmis etant reconstruits par interpolation ou 
30 extrapolation a partir des parametres des filtres transmis. 

2. Procede selon la revehdication 1 caracterise en ce que la 
valeur quantifiee du pitch est soit la derniere valeur du pitch des zones 
stables entierement voisees, soit une valeur moyenne ponder£e par la 
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frequence de transition de voisement dans les zones qui ne sont pas 
entierement voisees. 

3. Procede selon la revendication 2 caracterise en ce qu'il 
consiste iorsque la valeur de pitch est la derniere d'une super-trame, h 

5 reconstituer les autres valeurs par interpolation. 

4. Procede selon la revendication 3 caracterise en ce que la 
valeur du pitch utilisee dans la partie synthese est celle du pitch decode 
modifie par un coefficient de multiplication pour produire un leger tremolo 
dans la parole reconstitute. 

10 5. Procede selon l'une quelconque des revendications 1 d 4 

caracterise en ce que les paramfctres sont regroupes sur un nombre N = 3 
de trames consecutives. 

6. Procede selon la revendication 5 caracterise en ce que les 
frequences de voisement sont au nombre de 4 et sont codees 

15 vectoriellement a I'aide d'une table de quantification (22) comportant 32 
configurations de frequences groupies par 3. 

7. Procede selon I'une quelconque des revendications 5 et 6 
caracterise en ce qu'il consiste h mesurer renergie 4 fois par trame, 
seulement 6 valeurs parmi les 12 d'une super-trame etant transmises 

20 (23) sous la forme de deux vecteurs de 3 valeurs. 

8. Procede selon la revendication 7 caracterise en ce qu'il 
consiste a coder Tenergie (23) suivant quatre schemas regroupant chacun 
deux vecteurs, un premier schema Iorsque les douze vecteurs d'energie 
dans la super-trame sont stables, les schemas restants etant definis pour 

25 chacune des trames, et a transmettre le schema qui minimise I'erreur 
quadratique totale. Z 

9. Procede selon la revendication 8 caracterise en ce que : 

- dans le premier schema seules les valeurs d'energie 
numerotees 1 , 3, et 5 du premier~vecteur et celles numerotees 7, 9, 1 1 

30 du deuxieme vecteur sont transmises, 

- dans le deuxieme schema seules les valeurs d'energies 
numerotees 0, 1 , et 2 du premier vecteur et celles numerotees 3, 7, et 
1 1 du deuxieme vecteur sont transmises, 
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- dans le troisieme schema seules les valeurs d'energies 
numerotees 1, 4 5 du premier vecteur et celles numerotees 6, 7, et 1 1 
du deuxieme vecteur sont transmises, 

- et dans le quatrieme schema seules les valeurs d'energies 
5 numerotees 2, 5 et 8 du premier vecteur et celles numerotees 9, 10 et 

1 1 du deuxieme vecteur sont transmises. 

10. Procede selon l'une~quelconque des revendications 1 a 9 
caracterise en ce qu'il consiste a effectuer la selection des parametres 
d'encodage des filtres de prediction lineaire suivant quatre schemas pour 

10 encoder au mieux soit les zones pour lesquelles I'enveloppe spectrale est 
stable, soit les zones pour lesquelles I'enveloppe spectrale varie 
rapidement au cours des trames 1, 2, ou 3 d'une super trame. 

11. Procede' selon la revendication 10 caracteris<§ en ce qu'il 
consiste a utiliser (24) dans la partie synthase 6 filtres a prediction 

15 lineaire a 10 coefficients numerotes de 0 a 5 et a transmettre : 

- dans un premier schema que les coefficients des filtres 1 , 3, 
et 5 lorsque I'enveloppe spectrale est stable, 

- dans un deuxieme schema correspondent a fa premiere trame 
que les coefficients des filtres 0, 1 et 4, 

20 - dans un troisieme schema correspondant a la deuxteme trame 

que les coefficients des filtres 2, 3 et 5, 

- dans un quatrieme schema correspondant a la troisieme trame 
que les coefficients des filtres 1 , 4 et 5, 

le schema effectivement transmis etant celui qui minimise 
25 I'erreur quadratique totale, les coefficients des filtres non transmis etant 
calcules dans la partie synthese paf interpolation ou extrapolation. 

12. Procede selon Tune quelconque des revendications 1 a 11 
caracterise en ce que les coefficients LSF des filtres de synthese sont 
codes sur un nombre de 54 bits auquel est ajoute deux bits pour la 
30 transmission des schemas de decimation, I'energie est codee avec un 
nombre de 2 fois 6 bits auquel est ajoute 2 bits pour la transmission des 
schemas de decimation, le pitch est code sur un nombre de 6 bits et la 
frequence de transition de voisement est codee sur un nombre de 5 bits 
soit au total 81 bits pour des super-trames de 67,5 ms. 



2784218 



1/5 




2784218 



2/5 



LPC 



PITCH 



GENERATEUR 
HARMONIQUE 



VOISEMENT 



ENERGIE 



GENERATEUR 
ALEATOIRE 

^12 




FIL7RE 
PERCEPTUEL 

qs 



CAG 



T 



SIGNAL 

DE 
PAROLE 



16 



FIG.3 



CONFIGURATION DE VOISEMENT 


NB. OE SUPERTRAMES 


TOTALEMENT NON-VOISE (Y COMPRIS LES SILENCES) 


55.585 


TOTAL EMENT VOISE 


34.586 


PARTIELLEMENT NON-VOISE (30 PLUS FREQUENTES) 


30.273 


PARTIELLEMENT NON-VOISE (32 MOINS FREQUENTES) 


2.714 


TOTAL SUPER TRAM ES : 


123.158 



FIG.5 



NOM DU SCHEMA 


VECTEUR 1 


VECTEUR 2 


VALEURS 
INTERPOLEES 


STABLE 


1,3,5 


7,9,11 


0,2,4,6.8,10 


TRAME 1 


0,1,2 


3.7,11 


4,5,6,8,9,10 


TRAME 2 


1,4.5 


6,7,11 


0,2,3,8.9,10 


TRAME 3 


2,5,8 


9.10,11 


0.1.3.4,6.7 | 



NOM DU SCHEMA 


LPC QUANTIFIE 


LPC INTERPOLE 


LPC EXTRAPOLE 


STABLE 


1.3,5 


0.2,4 




TRAME 1 


0,1,4 


2,3 


5 


TRAME 2 


2,3,5 


0.1.4 




TRAME 3 


1,4.5 


0.2.3 





2784218 



3/5 



REGROUPEMENT DES 
PARAMETRES SUR 
N TRAMES CONSECUTIVES A 
(FORMATION D'UNE SUPERTRAME) 



17 



i 



QUANTIFICATION 
VECTORIELLE DES 
FREQUENGES_DE TRANSITION 



.18 



QUANTIFICATION 
SCALAIRE DU PITCH 



,19 



1 



QUANTIFICATION 
VECTORIELLE DE L'ENERGIE 



.20 



QUANTIFICATION 
VECTORIELLE DE 
L'ENVELOPPE SPECTRALE 



21 



FIG. 4 



2784218 



US 



0 


750 


3625 


0 


3625 


3625 


0 


2000 


3625 


750 


3625 


3625 


0 


0 


3625 


750 


2000 


3625 


750 


750 


3625 


2000 


2000 


3625 


0 


0 


2000 


750 


750 


750 


750 


750 


0 


2000 


2000.. 


750 


0 


0 


750 


0 


0 


0 


750 


0 


0 


2000 


750 


0 


2000 


2000 


2000 I 


' 3625 


3625 


2000 | 


2000 


3625 


3625 


3625 


3625 


3625 


2000 


750 


750 


3625 


2000 


750 


3625 


2000 


2000 


3625 


200Q_ 


3625 


2000 


2000 


0 


3625 


2000 


0 


3625 


3625" 


0 


3625 


3625 


750 


2000 


0 


0 


3625 


0 


0 


3625 


750 


0 


3625 


750 


750 



FIG. 6 



5/5 



2784218 



PARAMETRE 


NB. BITS 


LSFs 


54 


SCHEMA DE DECIMATION (LSFs) 


2 


ENERGIE 


2*6 


SCHEMA DE DECIMATION { ENERGIE) 


2 


PITCH 


6 


VOISEMENT 


5 


TOTAL BITS /67.5 ms 


81 



FIG. 9 



REPUBLIQUE FRAN£AISE 



2784218 



INSTITUT NATIONAL 
dela 

PROPRIETE INDUSTRIELLE 



RAPPORT fig RECHERCHE 

PRELIMINAIRE 

etabli sur la base des demises revendications 
d6pos6es avant le commencement de la recherche 



N° d'enreglttrement 
national 



FA 565674 
FR 9812500 



CaWgorfe 



DOCUMENTS CONSIDERES COMME PERTINENTS 



Citation du document avoc indication, en cas da beaoln, 
dea parties pertinentes '."Z; 



RtvtncScaflons 



d* It demande 
examinee 



D,A 



ATKINSON I ET AL: "High quality split 
band LPC vocoder operating at low bit 
rates" _ 
1997 IEEE INTERNATIONAL CONFERENCE ON 
ACOUSTICS, SPEECH, AND SIGNACTrOCESSING 
(CAT. N0.97CB36052), 1997 IEEE 
INTERNATIONAL CONFERENCE ON ACOUSTICS, 
SPEECH, AND SIGNAL PROCESSING, MUNICH, 
GERMANY, 21-24 APRIL 1997, pages 1559-1562 
vol.2, XP002105943 

ISBN 0-8186-7919-0, 1997, Los Alamltos, 
CA, USA, IEEE Comput. Soc. Press, USA 

* allnea 5 * 

MOUY B ET AL: "NATO STANAG 4479: A 
STANDARD FOR AN 800 BPS VOCODER AND 
CHANNEL CODING IN HF-ECCM SYSTEM" 
PROCEEDINGS OF THE INTERNATIONAL 
CONFERENCE ON ACOUSTICS, SPEECH, AND 
SIGNAL PROCESSING (ICASSP), DETROIT, MAY 9 
- 12, 1995 SPEECH, 
vol. 1, 9 ma1 1995, pages 480-483, 
XP000658035 

INSTITUTE OF ELECTRICAL AND ELECTRONICS 
ENGINEERS 

* allnea II. 2 * 

* allnea II. 3 * 

-/-- 



DOMAINES TECHNIQUES 
RECHERCHES (lnt.CL.6) 



GIOL 



Dale tfachevemenl de la recherche 

16 ju1n 1999 



Examine teur 

Krembel, L 



CATEGORY DES DOCUMENTS CITES 

X : particunerement pertinent a lut seul 

Y : particulierement pertinent en combtnalson avecun 

autre document de la meme categorte 
A : pertinent a rencontre <f au molns una revendication 

ou arriere-plan technologlque general 
O : divulgation norvecrite 
P : document interoalalre 



T : theorie ou principe a la base de rlnventlon 

E : document de brevet benenciant (Tune date anteneure 

a la date de depot et qui n'a 616 publ)6qu'a cette date 

de d6pdt ou qua une date posterteure. 
D : cite dans la demande 
L : cit6 pour tf autres raisons 



A : membre de la mdme (amine, document correspondent 



page 1 de 3 



REPUBLIQUE FRAN£AISE 



2784218 



INSTITUT NATIONAL 
de la 

PROPRIETE INDUSTRIELLE 



RAPPORT DE RECHERCHE 

PRELIMINAIRE 

etaWi sur la base des demises revendications 
d£pos£es avant le commencement de !a recherche 



N* d'enregbtrcment 
national 



FA 565674 
FR 9812500 



DOCUMENTS CONSIDERES COMME PERTINENTS 



Categorto 



Citation du document avec indication, en cas da beaoln, 
das parties pertinentee 



Revencficsfons 
concemees 
de \» demand* 



YELDENER S ET AL: "A mixed sinusoidal ly 
excited linear prediction coder at 4 kb/s 
and below" 

PROCEEDINGS OF THE 1998 IEEE INTERNATIONAL 
CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL 
PROCESSING, ICASSP '98 (CAT. 
N0.98CH36181), PROCEEDINGS OF THE 1998 
IEEE INTERNATIONAL CONFERENCE.^ 
ACOUSTICS, SPEECH AND SIGNAL PROCESSING, 
SEATTLE, WA, USA, 12-1, pages 589-592 
vol.2, XP002105944 

ISBN 0-7803-4428-6, 1998, New York, NY, 
USA, IEEE, USA 

* page 591, colonne 1, llgne 19 - Hgne 41 
* 

* figure 4 * 



US 5 774 837 A (AGUILAR JOSEPH" GERARD 
AL) 30 ju1n 1998 

* colonne 16, llgne 15 - llgne 47 * 



ET 



MCCREE A V ET AL: "A MIXED EXCITATION LPC 
VOCODER WITH FREQUENCY-DEPENDENT VOICING 
STRENGTH" 

SPEECH AND AUDIO CODING FOR WIRELESS AND 
NETWORK APPLICATIONS, pages 259-264, 
XP000470449 

ATAL B S CUPERHAN VjGERSHO A 
* figure 1 * 

-/-- 



DOMAINES TECHNIQUES 
RECHERCHES (lnt.CL.6) 



I 
I 



Oat* tfachevement de la recherche 


Examhateur 


16 ju1n 1999 


Krembel, L 



CATEGORIE DES DOCUMENTS CITES 

X : particuJief ement pertinent a lui soul 

Y : partieuJierement pertinent en combination avecun 

autre document de la me roe categorte 
A : pertinent a r encontre tfau moins una revendJcation 

ou arriere-p!an technotogJque general 
0 : divulgation norvecrite 
P : document intercaJaire 



T : theorie ouprindpe a la base de Hnvention 

E : document de brevet bene" fciant d*une date anterfeure 

a la date de depot et qui n'a 6te pub&equ'a cette date 

de depot ou qu a une date posierieure. 
0 : cite dans la demand© 
L : cite pour dautres raisons 



& : membre de la me me f ami tie, document correspondant 



page 2 de 3 



REPUBLIQUE FRANpAISE 



2784218 



INSTITUT NATIONAL 
de la 

PROPRIETE INDUSTRIELLE 



RAPPORT DE RECHERCHE 

PRELIMINAIRE 

6taWi sur la basedes demises revendications 
d£po$6es avant lewnmencement de la recherche 



N" d'enreglstrement 
nation*! 



FA 565674 
FR 9812500 



Categorie 



DOCUMENTS CONSIDERES COMME PERTINENTS 



Citation du document avec Indication, an cas d« beaoln, 
des parties pertinentea .. 



Rev«rtfcadons 
concemees 
do la demands 



LAFLAMME C ET AL: "Harmonlc-jtochastic 
excitation (HSX) speech coding below 4 
kbit/s" 

1996 IEEE INTERNATIONAL CONFERENCE ON 
ACOUSTICS, SPEECH, AND SIGNAL PROCESSING 
CONFERENCE PROCEEDINGS (CAT. 
N0.96CH35903), 1996 IEEE INTERNATIONAL 
CONFERENCE ON ACOUSTICS, SPEECH, AND 
SIGNAL PROCESSING CONFERENCE 1R0CEEDINGS, 
ATLANTA, GA, USA, 7-10 M, pages 204-207 
vol. 1, XP002106085 

ISBN 0-7803-3192-3, 1996, New York, NY, 
USA, IEEE, USA 

* figure 1 * 

* allnea 2.2 * 



DOMAINES TECHNIQUES 
RECHERCHES (lnt.CL.6) 



Data d'achavemert da ta recherche 


Exarnhateur 


16 ju1n 1999 


Krembel, L 



CATEGORIE DES DOCUMENTS CITES 

X : particulieremenl pertinent a hi seul 

Y : particulierement pertinent en combinalson avec in 

autre document de ta meme categorta 
A : pertinent a rencontre c?au molns une revendfcation 

ou arriere-plan technologlque general 
0 : divulgation non-ecrite 

P : document intercalalre 



T : theorte ou prtndpe a la base de rinventlon 
E : document de brevet benenciant (fune date anteneure 
2_ a la date de depot et qui n*a ate* public qu'a cette date 

de depot ou qu'a une dale posterteure. 

*. D : die dans la demande 
L : tile pour tfautres ralsona 

*" & : mernbre de la meme famine, document correspondant 



page 3 de 3 



This Page is Inserted by IFW Indexing and Scanning 
Operations and is not part of the Official Record 



Defective images within this document are accurate representations of the original 
documents submitted by the applicant. 

Defects in the images include but are not limited to the items checked: 



□ IMAGE CUT OFF AT TOP, BOTTOM OR SIDES 

□ FADED TEXT OR DRAWING 

□ BLURRED OR ILLEGIBLE TEXT OR DRAWING 

□ SKEWED/SLANTED IMAGES 

□ COLOR OR BLACK AND WHITE PHOTOGRAPHS 

□ GRAY SCALE DOCUMENTS 

□ LINES OR MARKS ON ORIGINAL DOCUMENT 

□ REFERENCE(S) OR EXHIBIT(S) SUBMITTED ARE POOR QUALITY 

□ OTHER: 

IMAGES ARE BEST AVAILABLE COPY. 
As rescanning these documents will not correct the image 
problems checked, please do not report these problems to 
the IFW Image Problem Mailbox. 



BEST AVAILABLE IMAGES 




BLACK BORDERS 



THIS PAGE BLANK 



